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摘要 : 


【 目的 】 有 效 确定 科技 情报 分 析 中 LDA 主题 模型 的 最 优 主题 数目 。[ 方法 】 利 用 主题 相似 度 度量 潜在 主 


题 之 间 的 差异 , 同时 结合 困惑 度 提出 一 种 确定 LDA 最 优 主题 数目 的 方法 ， 该 方法 既 考 虑 主题 抽取 效果 同时 也 考 
虚 模 型 对 新 文档 的 泛 化 能 力 。[ 结果 ] 获取 国内 新 能 源 领 域 的 科技 文献 作为 数据 集 , 实证 结果 表明 本 文 提 出 的 最 


优 LDA 主题 数 确定 方法 与 单纯 使 用 困惑 度 相 比 , 具有 更 高 的 主题 抽取 查 准 率 (91.67%) 下 值 (86.27%) 及 科技 文献 
推荐 精度 (71.25%)。[ 局 限 ] 未 针对 其 他 类 型 的 数据 集 进行 新 方法 的 验证 ， 如 微 博 短文 本 、XML 文档 等 。【 结论 】 


本 文 方法 能 够 有 效 地 从 科技 文献 数据 集中 抽取 辨识 度 较 高 的 主题 并 能 够 提高 科技 文献 推荐 效果 。 
相似 度 ”困惑 度 ”科技 情报 分 析 


关键 词 : LDA 主题 模型 
分 类 号 : G202 


1 3 引 


LDA(Latent Dirichlet Allocation)D 主 题 模型 是 统 
计 语 言 模型 中 的 典型 代表 , 近 几 年 在 情报 分 析 、 知 识 
服务 、 知 识 发 现 等 领域 得 到 了 广泛 的 应 用 ,主要 集中 
在 科学 文献 知识 挖掘 PR、 科学 研究 热点 发 现 与 新 兴 主 
题 探测 上 、 科 学 研究 主题 演化 上 、 学 术 评价 "等 研 
究 方 向 -LDA 之 所 以 在 情报 学 领域 获得 了 广泛 的 应 用 ， 
主要 原因 在 于 LDA 适合 海量 异 构 文本 数据 的 建 模 ,其 
优势 是 可 以 将 文本 表示 的 维度 大 大 降低 ， 从 而 避免 维 
数 灾难 1 科技 情报 分 析 中 大 量 实证 研究 证 明了 LDA 
的 可 靠 性 和 有 效 性 , 但 仍 存在 一 些 问题 没有 解决 。 与 
一 般 的 文本 挖掘 任务 相 比 , 科技 情报 分 析 对 LDA 提出 
了 更 高 的 要 求 ， 主 要 表现 在 以 下 两 点 : 

(1) 在 一 般 的 文本 挖掘 任务 中 (如 文本 聚 类 、 文 本 
分 类 、 文 本 自动 摘要 "等 ), LDA 往往 在 中 间 的 降 维 


了 中 


环节 发 挥 重要 作用 , 不 需要 展示 主题 的 具体 形式 ， 只 
需要 实现 文本 降 维 即 可 。 但 在 科技 情报 分 析 任务 中 (如 
科学 研究 主题 发 现 与 主题 演化 ), LDA 必须 将 主题 抽取 
的 结果 展示 并 分 析 ， 主 题 抽 取 的 质量 直接 影响 主题 抽 
取 和 主题 演化 的 效果 。 

(2) LDA 在 情报 分 析 中 的 应 用 更 注重 主题 数目 的 
确定 。 目 前 普遍 认为 应 用 LDA 的 最 大 问题 是 无 法 确定 
最 优 主题 数目 404。 而 主题 数目 的 确定 对 于 科技 文献 主 
题 抽取 至 关 重 要 。 从 目前 国内 外 情报 学 领域 应 用 LDA 
进行 科技 情报 分 析 的 情况 看 ， 以 上 的 两 个 问题 还 没有 
引起 足够 的 重视 。 


2 相关 工作 


大 量 实证 研究 证 实 LDA 主题 抽取 效果 与 潜在 主题 
数目 K 值 有 直接 关系 , 主题 抽取 的 结果 对 K 值 非常 敏 
感 。 基 于 此 , 国内 外 不 少 学 者 展开 了 相关 研究 , 通过 各 种 
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方法 确定 最 优 主 题 数 目 ， 比 较 常 用 方法 有 以 下 三 种 : 

(1) Blei 等 采用 困惑 度 (Perplexity) 作 为 评价 模型 好 
坏 的 标准 , 通过 选取 困惑 度 最 小 的 模型 确定 主题 的 最 
优 数目 趾 。 困 惑 度 指标 可 以 确定 最 优 的 模型 预测 能 
但 是 根据 困惑 度 选取 的 主题 数目 往往 偏 大 ， 从 而 导致 
抽取 的 主题 之 间 相 似 度 较 大 ,主题 辨识 度 不 高 的 问题 ， 
影响 科技 情报 分 析 工 作 的 效率 。 

(2) 将 主题 数目 进行 非 参 数 化 处 理 ， 典 型 代表 是 
层次 狄 利克 雷 过 程 (Hierarchical Dirichlet Processes， 
HDP)" YI。HDP 与 LDA 主题 模型 不 同 的 是 : HDP 是 一 
种 非 参 数 贝 叶 斯 模型 ， 能 够 从 文档 集中 自动 训练 最 合 
适 的 主题 数目 K。HDP 通过 狄 利克 雷 过 程 的 非 参数 特 
性 解决 了 LDA 中 主题 数目 选择 问题 , 实验 证 实 HDP 
所 选 的 最 优 主 题 数 目 与 基于 困惑 度 选取 的 最 优 主 题 数 
目 一 致 。 但 这 种 方法 需要 为 同一 个 集合 分 别 建立 一 个 
HDP 模型 和 一 个 LDA 模型 , 日 算法 时 间 复 杂 性 较 高 ， 
应 用 在 科技 情报 分 析 中 存在 效率 不 高 的 问题 。 

(3) Griffiths 等 提出 应 用 贝 叶 斯 模型 确定 最 优 主 题 
数目 的 方法 中 。 该 方法 依赖 于 Gibbs 抽样 的 过 程 , 计 
算 复 杂 度 较 高 ， 且 只 能 用 来 确定 主题 数目 , 无 法 刻画 
模型 的 泛 化 能 

另外 , 一 些 学 者 探讨 了 主题 相似 度 和 最 优 主 题 数 目 
之 间 的 关联 。Arun 等 将 LDA 看 作 和 矩阵 分 解 过 程 ,主题 
抽取 的 效果 取决 于 K 值 的 选取 , 并 通过 实验 发 现 利 用 
KL 散 度 度量 主题 之 间 的 相似 度 ， 当 主题 数 接近 最 优 值 
时 ,KL 散 度 较 小 , 而 主题 数 远离 最 优 值 时 ，KL 散 度 较 
大 中 。 曹 娟 等 通过 理论 证 明和 实验 分 析 , 得 到 最 优 主题 
数 与 主题 相似 度 之 间 的 关系 。 以 此 为 约束 条 件 , 将 最 优 
K 值 选择 与 LDA 模型 参数 估计 统一 在 一 个 框架 里 , 通过 
实验 证 明 最 优 K 值 不 仅 与 文档 集中 文本 的 数量 有 关 , 也 
与 文本 之 间 的 相关 程度 有 关 呈 。 综 合 分 析 发 现 ， 以 上 确 
定 LDA 最 优 主题 数 的 方法 , 主要 存在 模型 复杂 度 较 高 或 
者 分 析 所 得 主题 的 辨识 度 不 高 等 问题 , 基于 此 ,本 文 从 
主题 相似 度 人 人手 构建 新 的 确定 LDA 主题 数 的 方法 。 


3 ”基于 主题 相似 度 和 困惑 度 的 最 优 LDA 
主题 数 确定 方法 
如 前 所 述 ， 当 使 用 LDA 对 科技 文献 集 进行 主题 抽 
取 时 ， 困惑 度 选取 的 主题 数目 往往 较 大 、 从 而 导致 抽 
取 的 主题 之 间 相 似 度 较 大 、 主 题 辨识 度 不 高 的 问题 。 
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而 主题 辨识 度 与 主题 之 间 的 相似 度 密切 关联 ， 当 主题 
相似 度 越 小 时 ， 主题 之 间 的 辨识 度 越 大 ,基于 此 ， 本 文 
权衡 模型 的 泛 化 能 力 以 及 主题 抽取 的 效果 ,提出 基于 
困惑 度 和 主题 相似 度 相 结合 的 指标 Perplexity-Var 来 确 
定 主题 的 最 优 数 目 。 
3.1 困惑 度 

在 概率 语言 模型 中 , 困惑 度 是 用 来 评估 语言 模型 
优 劣 的 指标 , 其 基本 思想 是 给 测试 集 赋予 较 高 概率 值 
的 语言 模型 较 好 所， 且 较 小 的 困惑 度 意 味 着 模型 对 新 
文本 有 较 好 的 预测 作用 , 所 以 困惑 度 一 般 随 着 潜在 主 
题 数量 的 增加 呈现 递减 的 规律 。 

在 LDA 主题 模型 中 ,困惑 度 计算 公式 趾 如 下 : 


M 
2 古 


Perplexity(D) = exp 
d=1 Na 


其 中 , D 表示 语料库 中 的 测试 集 ， 共 M 篇 文档 , Na 
表示 每 篇 文档 d 中 的 单词 数 ，wu 表示 文档 d 中 的 词 ， 
p(wa) 即 文档 中 词 wa 产生 的 概率 。 

3.2 Perplexity-Var 

计算 主题 相似 度 常 用 的 方法 是 Kullback-Leibler 
散 度 (KL 散 度 ) 中 或 Jensen-Shannon 散 度 (JS 散 度 )P， 
由 于 KL 散 度 不 满足 对 称 性 和 三 角 不 等 式 所 以 本 文 
选取 JS 散 度 作 为 度量 主题 之 间 相 似 度 的 计算 方法 。 

在 JS 散 度 的 基础 上 , 将 随机 变量 方差 的 概念 引入 
到 潜在 主题 空间 中 ， 即 可 衡量 主题 空间 的 整体 差异 
性 。 主 题 方差 是 各 个 主题 分 别 与 其 均值 之 间 的 距离 平 
方 和 的 平均 数 , 用 Var(T) 表 示 。 主 题 方 差 用 来 度量 主 
题 和 其 均值 之 间 的 偏离 程度 ,可 以 衡量 潜在 主题 空间 
的 整体 差异 性 和 稳定 性 。 主 题 方差 的 计算 方法 如 下 : 

@D 计 算 主题 - 词 概率 分 布 y 均值 由 ; 

@) 利 用 JS 散 度 计 算 主 题 方差 ， 公式 如 下 : 


K 
DDjs (CT, OY 
Var(T)= 


区 O) 


其 中 , T 表 示 LDA 抽取 的 主题 , K 表示 主题 数目 ， 
Dr 表示 JS 散 度 。Var( 了 T) 衡 量 了 主题 之 间 的 稳定 性 和 
差异 性 ， 当 Var(T) 越 大 时 ,主题 之 间 的 差异 性 越 大 , 主 
题 之 间 的 区 分 性 就 越 好 , 这 样 的 主题 结构 就 越 稳 定 。 
困惑 度 反映 了 模型 的 预测 能 力 , 但 一 味 追 求 模型 的 预 
测 能 力 则 必然 导致 抽取 的 主题 数 过 大 的 问题 , 所 以 二 
者 相 结合 可 以 有 效 解 决 主题 辨识 度 不 高 的 问题 。 
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Perplexity-Var 指标 计算 公式 如 下 : 


Perplexity(Dtest) 
Var( Ttest) 


其 中 ，Dies 为 实验 文本 集中 的 测试 数据 集 ， 
Perplexity(D。。 ) 为 测试 数据 集 的 困惑 度 ，Var(Tos) 
是 测试 数据 集 的 主题 方差 。 

Perplexity-Var 指标 含义 : 首先 , 考虑 到 模型 的 泛 
化 能 力 ， 当 Perplexity 越 小 时 , LDA 的 泛 化 能 力 越 好 。 
其 次 , 考虑 到 LDA 的 主题 抽取 效果 ， 当 主题 结构 的 平 
均 相 似 度 最 小 时 ， 对 应 的 LDA 主题 模型 最 优 P0， 而 主 
题 结构 的 平均 相似 度 越 小 , 则 主题 之 间 的 差异 就 越 大 ， 
此 时 主题 结构 的 方差 越 大 。 所 以 当主 题 方差 越 大 时 ， 
LDA 主题 抽取 的 效果 越 佳 ,同时 Perplexity-Var 指标 就 
越 小 ,综合 以 上 分 析 ， 当 Perplexity-Var 指 标 最 小 时 ， 对 
应 的 LDA 主题 模型 最 优 。 


Perplexity-Var(Diest) = (3) 


4 实验 过 程 


实验 数据 与 数据 预 处 理 

(1) 数据 检索 
实验 数据 检索 自 CNKI, 通过 去 重 、 删 除 不 完整 数 
据 ， 共 获得 国内 新 能 源 领域 1994 年 -2000 年 1 018 篇 文 
献 , 字段 包括 标题 、 作 者 、 机 构 、 摘 要 和 关键 词 ,不 包 
括 全 文 。 将 语料库 中 10% 的 文献 用 作 测试 集 评估 模型 ， 
剩 下 的 文献 用 来 训练 LDA 模型 。 

通过 对 1 018 篇 科技 文献 的 标题 、 关 键 词 、 摘 要 
等 元 数据 的 分 析 , 笔者 统计 了 文本 集 的 主题 及 相关 统 
计数 据 ,， 经 过 课题 组 成 员 打 标签 和 专家 鉴定 ， 共 获得 
有 效 主题 27 个 , 包含 文献 955 篇 ,另外 还 有 主题 不 明 
确 的 文献 63 篇 , 具体 数据 如 表 1 所 示 。 

(2) 数据 预 处 理 

抽取 领域 词典 、 分 词 

通过 Python 编程 获取 1 018 篇 原始 文献 的 关键 词 , 计算 
词 频 并 获取 领域 词典 。 利 用 Python 的 jiebal” 分词 软件 包 对 
原始 文献 的 摘要 进行 分 词 ， 并 将 上 一 步 获取 的 领域 词典 作 
为 分 词组 件 的 用 户 词典 ， 以 提高 分 词 的 效果 。 

(OLDA 主题 模型 及 工具 包 选 择 

LDA 主题 抽取 由 基于 Python 语言 的 机 器 学 习 包 gensimEq 
实现 , Perplexity-Var 指标 的 计算 以 及 文档 相似 度 的 计算 也 通 
过 Python 编程 实现 。 

实验 环境 是 一 台 Windows 7 旗舰 版 操作 系统 、 
Intel(R) Core(TM) i5-4570 CPU 、3.2GHz 、4GB 内 存 的 
计算 机 。 
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表 1 实验 文本 集 主 题 及 文献 量 

主题 文献 量 主题 文献 量 
太阳 能 资源 89 风能 资源 60 
光伏 发 电 36 风力 发 电 55 
太阳 池 11 风力 机 48 
太阳 能 空调 10 沼气 池 50 
太阳 灶 18 沼气 发 酝 30 
太阳 能 电池 15 生物 质 能 62 
太阳 能 热水器 69 地 热 资 源 63 
太阳 能 集 热 器 64 地 热 井 、 地 热 田 22 
空气 取水 8 地 热 发 电 20 
氢 能 31 热流 14 
海洋 石油 20 波 力 发 电 12 
天 然 气 水 合 62 潮汐 能 13 
优化 设计 15 核能 9 
建 模 、 仿 真 59 其 他 63 

4.2 评价 指标 和 实验 结果 对 比分 析 


确定 LDA 最 优 主题 数目 的 三 种 方法 中 ， 基 于 
HDP 确定 LDA 最 优 主题 数目 的 方法 算法 复杂 度 较 
高 ， 而 基于 Gibbs 抽样 过 程 中 的 贝 叶 斯 模型 方法 无 法 
刻画 模型 的 新 文档 预测 能 力 。 所 以 , 本 文选 取 最 流行 
的 基于 困惑 度 计算 的 方法 作为 本 文 方法 的 比较 对 象 。 
实验 设计 从 科技 文献 主题 抽取 效果 和 科技 文献 相似 
度 推荐 效果 两 个 评价 指标 进行 模型 评价 。 

(1) 科技 文献 主题 抽取 效果 

采用 查 准 率 P (Precision)、 查 全 率 R (RecalDl) 和 下 
值 (F-Score) 进 行 定量 评价 。 查 准 率 用 以 评估 LDA 主题 
抽取 的 有 效 主题 中 正确 主题 所 占 的 比例 ， 查 全 率 用 以 
评估 LDA 抽取 的 正确 主题 占 专 家 评判 的 领域 研究 主 
题 的 比例 , 而 F 值 为 二 者 的 调和 平均 值 ， 公 式 如 下 : 


P= Teorect. R= T 
T 


Textract standard 
其 中 ，T,wact 为 LDA 抽取 的 有 效 主题 的 数目 ; 
Tuneet 为 有 效 主题 中 正确 抽取 的 主题 数目 ,所谓 正确 
抽取 的 主题 指 LDA 所 抽取 的 主题 包含 在 专家 评判 的 
领域 研究 主题 之 中 ; Tianaau 为 通过 文献 调研 和 专家 评 
判 的 领域 主题 数目 。 
(2) 科技 文献 相似 度 推 荐 
高 质量 的 科技 情报 服务 应 立足 于 用 户 需 求 ， 当 用 


Correct . F= 2PR (4) 
” (P+R) 


户 在 海量 科技 文献 中 寻找 与 自己 阅读 文献 相似 度 较 高 
的 文献 时 ， 科 技 文献 相似 度 推 荐 就 显得 尤为 迫切 ， 而 
文献 推荐 的 质量 与 所 抽取 主题 的 质量 是 直接 相关 联 
的 。 所 以 , 特别 选取 科技 文献 相似 度 推荐 效果 作为 评 
价 最 优 主 题 数 目 选 择 方法 的 依据 之 一 。 

对 训练 集 语料库 实行 LDA 主题 抽取 之 后 , 文档 可 
以 表示 为 主题 向 量 空 间 ， 其 维度 比 词 向 量 空间 的 维度 
小 很 多 。 对 于 测试 集 的 新 文档 ,可 以 使 用 训练 好 的 
LDA 模型 进行 主题 抽取 , 并 将 文档 映射 到 主题 空间 ， 
在 此 基础 上 使 用 JS 散 度 度量 新 文档 与 训练 集中 文档 
的 相似 度 ， 完 成 新 文档 的 相似 度 推荐 工作 。 

基于 文档 相似 度 的 文档 推荐 方法 如 下 : 

@ 在 主题 数目 为 区 时 用 训练 语料库 对 LDA 模型 进行 参 
数学 习 ; 

@ 对 测试 集中 的 文档 用 训练 好 的 LDA 进行 主题 抽取 ; 

图 对 测试 集中 的 文档 根据 JS 散 度 与 训练 集中 的 所 有 文 
档 进 行 相似 度 计算 , JS 散 度 越 小 则 文档 越 相 似 ， 对 所 有 文档 
进行 相似 度 排 名 ,排名 靠 前 的 文档 为 相似 度 高 的 文档 。 

实验 通过 打 标 签 的 形式 ， 对 测试 集中 的 102 篇 文 
献 进行 人 工 标注 , 标注 出 训练 数据 集中 与 之 最 相关 的 
前 10 个 文献 ,对 每 篇 测试 集 文献 取 其 相似 度 推荐 结果 
中 的 前 10 篇 文献 , 通过 推荐 准确 率 (Recommend 
Precision) 对 相似 度 推 荐 效果 进行 对 比分 析 。 

假设 对 于 M 篇 测试 集中 的 文献 d;, 在 训练 数据 集 
中 ， 人 工 标注 的 最 相关 的 前 10 篇 文献 集 为 T;, 通过 相 
似 度 推 荐 算法 得 到 的 推荐 结果 前 10 篇 文献 集 为 Ri。 
则 该 测试 集 的 推荐 精度 如 公式 (5) 所 示 ， 其 中 #(T;) 表 示 
文献 集 Ti 所 含 文献 数量 。 

># (TNR? 


Rp #(D 
本 M 


4.3 ”实验 结果 及 对 比分 析 

(1) 最 优 主题 数目 的 确定 

实验 设 定 主题 数目 K 的 取 值 范 围 为 [10，200], 取 
步 长 为 10 进行 LDA 主题 抽取 , 分 别 在 测试 集 上 计算 
Perplexity 指标 和 Perplexity-Var 指 标 ， 从 而 确定 最 优 主 
题 数 目 。 

(DPerplexity 指标 的 计算 

从 图 1 中 困惑 度 的 取 值 来 看 ， 当 主题 数目 K=70 时 , LDA 
的 困惑 度 指标 达到 最 小 ， 此 时 最 优 主 题 数 目 为 70。 

(DPerplexity-Var 指标 的 计算 

利用 JS 散 度 在 测试 集中 计算 不 同 主题 数目 K 情况 下 ， 


(5) 
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LDA 抽取 的 潜在 主题 的 方差 如 图 2 所 示 。 
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图 1 不 同 KK 值 下 LDA 模型 的 困惑 度 
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图 2 不 同 K 值 下 LDA 主题 方差 值 


图 2 中 显示 方差 随 着 主题 数目 的 增加 而 减 小 ， 即 当主 题 
数量 越 多 时 , 主题 之 间 的 方差 越 小 。 这 是 因为 当 抽 取 的 主题 
越 多 时 ， 出 现 了 一 些 干扰 主题 和 语义 重复 的 主题 ,导致 主题 
之 间 的 相似 度 增 大 , 主题 结构 的 方差 变 小 ， 造 成 主题 结构 不 
稳定 。 

使 用 Perplexity-Var 指标 计算 最 优 主题 数目 ， 如 图 3 所 
示 。 可 以 得 出 当主 题 数目 选择 为 30 个 时 , Perplexity-Var 指标 
达到 最 小 值 ， 此 时 选择 的 LDA 最 优 主题 数目 为 30。 


0 20 40 60 80 100 120 140 160 180 200 
Number of Topics 


图 3 不 同 K 值 下 Perplexity-Var 指标 值 


综 上 ,从 两 种 指标 所 确定 的 LDA 主题 数目 来 看 ， 
单纯 使 用 困惑 度 确定 的 主题 数目 70 与 人 工 判 定 的 主 
题 数目 27 相差 太 大 ,而 本 文 所 提出 的 Perplexity-Var 
指标 得 到 的 最 优 主题 数目 30 与 人 工 判定 的 结果 比较 
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吻合 。 
(2) 实验 结果 对 比分 析 
人 @D 科 技 文献 主题 抽取 效果 评价 
根据 实验 结果 可 知 , 通过 Perplexity 指标 计算 的 最 优 主 


题 数 目 70, 通过 Perplexity-Var 指标 计算 的 最 优 主题 数目 为 
30, 利用 LDA 对 新 能 源 领 域 科技 文献 数据 集 进 行 主题 抽取 
并 分 析 结 果 ， 部 分 主题 抽取 结果 如 表 2 和 表 3 所 示 ( 只 展示 了 
前 10 个 主题 并 省 略 了 主题 词 的 概率 值 ): 
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表 2 K=30 时 LDA 主题 抽取 结果 (部 分 结果 ， 阴 影 为 干扰 主题 ) 

主题 主题 词 
Topicl 太阳 能 热水器 太阳 能 发 电 农村 能 源 燃气 热水器 蓄 热 
Topic2 太阳 能 太阳 能 集 热 器 管 篮 结 构 腔 体式 吸收 器 集 热 效率 仿真 
Topic3 太阳 能 集 热 器 太阳 能 热水器 保温 材料 循环 管 聚 茶 乙烯 泡沫 板 
Topic4 太阳 能 设计 发 展 热水器 海洋 能 
Topic5 沼气 池 产 气量 发 酵 液 农村 活动 盖 
Topic6 地 温 梯度 地 热 资源 温度 热流 也 热 场 
Topic7 潮汐 发 电 风力 发 电机 组 间断 性 发 电 温泉 水 风机 
Topic8 天 然 气 水 合 物 温室 气体 气体 水 合 海洋 甲烷 
Topic9 太阳 灶 反射 率 太阳 房 太阳 能 利用 太阳 能 资源 
Topic10 太阳 能 利用 集 热 器 太阳 能 热水器 真空 管 太阳 能 热水器 新 能 源 

表 3 K=70 时 LDA 主题 抽取 结果 (部 分 结果 ， 阴 影 为 干扰 主题 ) 
主题 主题 词 

Topicl 潮汐 电站 潮汐 能 资源 潮汐 能 源 灯泡 贯 流 式 机 组 开发 前 景 

Topic2 太阳 能 热水器 集 热 器 热效率 太阳 热水器 太阳 能 干燥 器 

Topic3 太阳 能 热效率 供 热 与 制冷 热 损 管 篮 结 构 腔 体式 吸收 吉 

Topic4 地 热 厌 氧 发 酵 地 热 热泵 供暖 太阳 能 集 热 器 

Topic5 真空 集 热 管 太阳 集 热 器 全 玻璃 选择 性 吸收 涂 层 真空 太阳 集 热 管 

Topic6 a 综合 利用 太阳 能 资源 天 然 气 自动 绘图 

Topic7 地 温 梯 度 大 地 热流 使 用 方法 地 热电 站 瞬时 效率 

Topic8 风电 场 风能 风能 资源 风力 发 电机 组 风力 机 

Topic9 地 温 场 金属 陶瓷 地 热 共 溅 射 太阳 能 制 所 

Topic10 风力 机 风力 发 电机 控制 系统 模型 风 轮 


主题 的 含义 是 通过 其 主题 词 项 的 综合 语义 反映 出 来 的 ， 
通过 与 人 工 判定 的 主题 进行 比较 ( 见 表 1), 得 出 Perplexity-Var 
指标 确定 的 LDA 主题 模型 可 以 准确 抽取 22 个 主题 ,所 抽取 
的 30 个 主题 中 含有 6 个 干扰 主题 ; Perplexity 指标 确定 的 
LDA 主题 模型 可 以 准确 抽取 23 个 主题 ,所 抽取 的 70 个 主题 
中 含有 29 个 干扰 主题 。 两 种 指标 下 的 主题 抽取 效果 对 比如 


表 4 展 示 了 两 种 最 优 主 题 数 选择 方法 下 ,LDA 主题 抽取 
的 查 准 率 、 查 全 率 和 下 值 。 可 以 看 出 , 基于 困惑 度 (Perplexity) 
的 方法 ， 抽 取 的 有 效 主题 数 较 多 ,但 是 这 些 主题 大 多 是 重复 的 
且 干 扰 主 题 也 很 多 ， 所 以 查 准 率 和 下 值 较 低 。 而 基于 主题 相似 
度 和 困惑 度 (Pemplexity-VanD 的 选择 方法 ， 抽 取 的 主题 中 干扰 主 
题 较 少 ,各 项 指标 较 高 ， 效 果 较 好 。 科 技 文献 主题 挖 气 的 目标 ， 


表 4 所 示 : 既 要 保证 主题 抽取 的 准确 性 也 要 保证 主题 抽取 有 较 高 的 效率 。 
否则 ,抽取 的 干扰 主题 过 多 , 会 严重 影响 主题 挖 气 效 率 。 
< 同 最 优 主题 数 洗 抒 方 ) 二 三 
表 4 BE 加 科技 文献 相似 度 推荐 

先 将 训练 文本 集 通过 LDA 进行 主题 抽取 ,获取 主题 空 
景 优 主题 数 查 准 率 查 全 率 间 。 然后 将 测试 文本 集中 的 每 篇 文献 表示 为 主题 空间 中 的 向 
选择 方法 oe Ta ld P R EE 值 2 
a 四 | 量 , 利用 本 文 提出 的 相似 度 推荐 方法 推荐 相似 文献 ， 并 取 前 
Perplexity 41 23 27 56.10% 85.19% 67.65% 10 篇 推荐 文献 。 表 5 展示 了 两 种 指标 下 , 测试 文本 集 的 相似 

Perplexity-Var 24 22 27 91.67% 81.48% 86.27% 度 推荐 精度 。 
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表 5 两 种 指标 下 文献 相似 度 推 荐 精度 一 览 表 因 是 Perplexity-Var 指标 不 仅 依赖 于 模型 的 预测 能 力 , 还 兼 
最 估 于 题 数 迹 择 方 深 。 最 人 于 题 数 日 ”相似 度 推 着 糖度 顾 了 主题 之 间 的 相似 度 , 使 主题 之 间 的 差异 性 更 加 明显 ， 增 
Perplexity 70 64.76% 加 了 主题 的 辨识 度 。 当 文档 映射 到 主题 空间 上 时 , 主题 可 以 
ie 30 71.25% 很 好 地 表达 文档 的 语义 信息 。 为 了 更 加 清晰 地 展示 文献 相似 


度 推荐 效果 ,笔者 从 测试 集中 随机 选取 了 两 篇 测试 文档 进 
从 表 5 看 出 , Perplexity-Var 指标 确定 的 LDA 主题 模型 其 行 相似 度 推荐 结果 的 展示 ,分别 属于 潮汐 发 电 主题 和 风力 
文献 相似 度 推荐 精度 比 单纯 使 用 困惑 度 指 标 要 高 ,主要 原 发 电 主题 , 如 表 6 和 表 7 所 示 : 


表 6 文档 相似 度 推 荐 结果 对 比 1 


J K=30 时 的 推荐 结果 排序 ( 取 前 5) K-70 时 的 推荐 结果 排序 ( 取 前 5) 
文档 文档 
文档 关键 词 ” 编号 。 JS 散 度 文档 关键 词 编号 JS 散 度 文档 关键 词 
(训练 集 ) (训练 集 ) 
潮汐 电站 ; 规划 设计 ; 浙江 省 ; 潮汐 能 资源 ; 海洋 能 资源 ; 开发 前 景 ; 资源 
灯泡 贯 流 式 机 组 ; 潮汐 发 电站 ; 年 发 电量 ; 电 开发 利用 ; 波浪 能 ; 盐 差 能 
2 0.09436 力 负荷 ; 潮汐 资源 ; 开发 利用 346 0.01760 海洋 热能 ; 潮汐 能 资源 ; 潮汐 
潮汐 电站 ; 潮 发 电站 ; 年 发 电量 ; 琼州 海峡 
汐 能 源 ; 潮汐 海洋 能 ; 可 再 生 能 源 ; 潮汐 电站 ; 波浪 能 ; 开 地 热 井 ; 贴 砾 管 ; 钻机 提升 系 
能 资源 ; 利用 发 利用 ; 波浪 发 电 ; 波 力 电站 ; 发 电 装 置 ; 装 统 ; 过 滤器 ; 牙 轮 钻头 ; 钻井 
问题 , 经 济 效 。 22 000436 机 容量 ; 化 石 燃料 671 901760 参数 ; 成 井 工 艺 ; 存在 问题 ; 
上 益 : 电站 建设 ; 测 井 资料 ; 石油 钻井 
灯泡 贯 流 式 机 海洋 能 资源 ; 开发 前 景 ; 资源 开发 利用 ; 波浪 
组 ; 离 退休 科 346 0.00436 能 ; 盐 差 能 ; 海洋 热能 ; 潮汐 能 资源 ; 潮汐 发 311 ”0.01760 潮汐 能 ; 潮汐 电站 ; 综合 开发 
I~ 技工 作者 ; 发 电站 ; 年 发 电量 ; 琼州 海峡 
了 展 前 景 ; 开发 海洋 波浪 能 ; 波浪 能 发 电站 ; 装机 容量 ; 理论 闸 用 | ， 估 关 
前 景 444 0.00853 药 藏 量 ; 波浪 发 电 ; 开发 利用 ; 年 发 电量 ; 波 406 0.01760 he ee 
能 发 电站 ; 振荡 水 柱 式 ; 波 力 电站 Bs 
发 电 设备 ; 开发 利用 ; 波浪 能 量 ; 发 电机 ; 波 0 
576 0.00853 浪 发 电 水 下 波 ; 缩小 比 . 茧 莫 形 ; 浮 体 ; 样机 459 ”0.03164 潮汐 电站 ; 运行 方式 ; 分 析 
表 7 文档 相似 度 推荐 结果 对 比 2 
推荐 文档 i ee 本 
(测试 集 ) K=30 时 的 推荐 结果 排序 ( 取 前 5) K=70 时 的 推荐 结果 排序 ( 取 前 5) 
文档 文档 
文档 关键 词 编号 。 JS 散 度 文档 关键 词 编号 JS 散 度 文档 关键 词 
(训练 集 ) (训练 集 ) 
内 蒙古 草原 ; 内 蒙古 锡林浩特 ; 风力 发 电机 ; 牧 
142 0.00073 ” 民 ; 财政 补贴 ; 分 离 牛 奶 ; 小 型 风机 ; 风能 开 693 0.10211 ; 风力 发 电 风 
i 人 bw， 有 场 ; 现状 前 景 
和 2 粉碎 饲料 ; 风能 资源 
风 pe 和 六 
四 场 ， 风能 资源 ; 有 效 风 能 ; 开发 利用 前 景 ; 风能 密 pe ee 
风力 发 电机 196 ”0.00073 ” 度 ; 嵊泗 县 ; 有 效 风速 ; 风力 发 电 ; 设计 风速 ; 381 0.10286 ”风能 ; 风力 机 ; 风能 
组 ; 风力 机 ; 相对 变 率 ; 年 平均 风速 利用 ; 风能 研究 
ee 浙江 省 海岛 有 效 风速 ; 有 效 风能 密度 ; 风力 次 风 资 源 评价 ; 风电 
有 效 oe 214 ”0.00073 ” 源 ; 年 平均 风速 ; 风能 资源 ; 日 变化 ; 计算 公 ”607 ”0.10286 场 ; 年 平均 风速 ; 风 
he 式 ; 电力 紧缺 ; 风 资 六 能 功率 密度 
风电 场 : 发 风力 机 组 ; 内 蒙古 锡林浩特 ; 安家 落户 ; 风力 发 人 
电 装 机 容量 。 ”267 ”0.00191 ”电机 ; 锡 盟 ; 内 蒙古 锡林郭勒 盟 ; 拖拉 机 制造 752 0.10286 机 容量 ; 风电 场 
党 规 火电 ; 西 德 ; 电 建 二 公司 ; 年 平均 风速 0 
风电 机 ; 内 蒙古 锡 林 浩 ; 特大 型 风力 发 电机 组 ; 
269 ”0.00209 ”风电 场 ; 锡林浩特 市 ; 风能 功率 密度 ; 商业 化 运 859 0.10531 we 
营 ; 计算 机 控制 ; 风电 机 组 ; 拖拉 机 制造 0 


( 注 : 表 6 和 表 7 中 JS 散 度 表示 文档 之 间 的 距离 ， 当 两 篇 文档 其 JS 散 度 越 小 时 , 二 者 之 间 的 相似 度 就 越 大 。) 
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从 表 6 可 知 ,第 一 篇 属于 潮汐 发 电 主题 的 被 推荐 文档 在 
主题 数目 K=30 时 与 训练 集中 文档 215 之 间 有 具有 最 小 的 JS 
散 度 ， 因 而 最 相似 ; 而 当 K=70 时 , 与 文档 346 最 相似 。 从 文 
档 的 关键 词 可 以 看 出 , 文档 215 在 关键 词 上 与 被 推荐 文档 极 
为 相似 ， 都 包含 “潮汐 电站 ; 潮汐 能 源 ; 潮汐 能 资源 ; 灯泡 贯 
流 式 机 组 ; 开发 ; 利用 ”等 词 , 特别 是 核心 词汇 “灯泡 贯 流 式 
机 组 ”而 文档 346 没有 。 另 外 , 文档 671 是 “地 热 " 主 题 ， 与 
“潮汐 发 电 ” 无 关 ， 可 见 K=30 时 文档 推荐 效果 要 优 于 K=70。 
同样 的 对 比方 法 ， 从 表 7 中 也 可 以 得 出 类 似 的 结论 。 可 见 ， 
基于 Perplexity-Var 指标 选择 的 LDA 模型 ， 由 于 保证 了 所 抽 
取 的 主题 结构 的 稳定 性 ， 当 文档 表示 为 主题 的 混合 分 布 时 ， 
能 够 较 准确 地 刻画 文档 的 语义 信息 ， 从 而 在 文档 相似 度 推 
荐 方面 有 更 好 的 表现 。 


S 结 语 


在 大 数据 背景 下 ， 对 于 智能 情报 分 析 需 求 的 日 益 
增强 , 对 于 能 够 处 理 海量 文本 数据 的 智能 算法 的 需求 
日 益 增强 。 本文 从 LDA 的 特点 入 手 , 分 析 了 和 情报 分 析 
与 一 般 的 文本 挖掘 中 应 用 LDA 的 主要 区 别 。 提 出 了 在 
情报 分 析 工 作 中 应 用 LDA 必须 要 重视 主题 抽取 的 效 
果 和 主题 数目 这 两 个 问题 。 结 合 主题 相似 度 以 及 困惑 
度 , 本 文 提 出 确定 最 优 主 题 数目 的 方法 , 实证 证 实 了 
在 科技 文献 的 知识 挖掘 中 ,利用 此 方法 可 以 有 效 确定 
主题 数目 获得 较 好 的 主题 抽取 结果 ， 帮 助 情报 分 析 工 
作者 从 海量 科技 文献 中 抽取 显著 主题 , 并 能 够 提高 基 
于 相似 度 的 科技 文献 推荐 效果 。 

本 文 在 实证 分 析 时 针对 科技 文献 数据 进行 了 方法 
有 效 性 验证 , 没有 针对 其 他 类 型 的 数据 集 进 行 方法 的 
验证 ， 如 微 博 短 文本 、XML 文档 等 。 另 外 ， 只 针对 科技 
情报 分 析 任 务 ， 从 主题 抽取 效果 和 科技 文献 相似 度 推 
荐 效果 这 两 个 方面 进行 新 方法 的 验证 ,其 他 方面 的 验 
证 还 需要 进一步 的 拓展 ， 以 证 明 方法 的 有 效 性 。 所 以 ， 
扩展 验证 范围 和 评价 指标 是 下 一 步 的 工作 重点 。 
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Identifying Optimal Topic Numbers from Sci-Tech Information with 
LDA Model 


Guan Peng"” Wang Yuefen! 
(School of Economics and Management, Nanjing University of Science & Technology, Nanjing 210094, China) 
2(College of Applied Mathematics, Chaohu University, Hefei 238000, China) 


Abstract: [Objective] This paper tries to identify the optimal number of topics for the Latent Dirichlet Allocation 
(LDA) model to analyze scientific and technical information. [Methods] First we used the topic similarity to measure 
the differences among the latent topics. Second, we proposed a method determining the optimal topic numbers and tried 
to utilize this model to documents from Chinese literature in the field of new energy. [Results| The proposed method 
achieved higher precision ratio and higher F-score in topic extration, which improved the performance of literature 
recommendation systems. [Limitations] We did not examine the new mothod with other datasets, such as microblog 
posts and XML documents. [Conclusions] The proposed method could identify more recognizable topics and improve 
the performance of scientific and technical literature recommendation systems. 


Keywords: LDA Topic model Similarity Perplexity Analysis of Scientific and Technical Information 


开放 图 书馆 基金 会 成 立 ， 旨 在 促进 图 书馆 开源 项 目的 发 展 


开放 图 书馆 基金 会 于 近日 成 立 , 旨 在 促进 图 书馆 开源 项 目的 发 展 ,并 促进 和 支持 这 些 开源 项 目的 社区 贡献 和 可 持续 发 
展 。 该 基金 会 为 图 书馆 员 、 开 发 人 员 、 设 计 人 员 、 服 务 提 供 商 和 供应 商 提 供 了 能 够 与 创新 的 开源 技术 进行 合作 ,为 图 书馆 开 
发 转型 解决 方案 的 基础 架构 。 

基金 会 的 创建 是 受到 了 FOLIO 项 目的 启发 。FOLIO 项 目 于 2016 年 6 月 启动 , 到 现在 , 成 功 创建 了 一 个 由 图 书馆 、 供 应 
商 和 软件 开发 商 组 成 的 多 元 社区 , FOLIO 项 目的 目标 是 创建 一 个 开源 的 图 书馆 服务 平台 ,能 够 将 创新 方法 运用 于 现行 做 法 ， 
并 鼓励 新 的 和 扩展 的 图 书馆 服务 更 全 面 地 支持 学 术 探究 和 知识 生产 。 该 基金 会 的 首届 项 目 包 括 两 个 现 有 的 开源 社区 : 开放 图 
书馆 环境 (Open Library Environment, OLE) 和 全 球 开放 知识 库 (Global Open Knowledgebase, GOKb)。OLE 和 GOKb 社区 加 入 开 
放 图 书馆 基金 会 因为 该 基金 会 专注 于 图 书馆 、 图 书馆 社区 ,以 及 开放 技术 和 数据 。OLE 总 经 理 兼 开放 图 书馆 基金 Michael 
Winkler 指出 OLE 和 开放 图 书馆 基金 有 着 共同 的 目标 “基金 会 的 使 命 是 培育 和 支持 开源 项 目 , 这 与 OLE 的 愿景 是 一 致 的 。” 
OLE 正在 开发 人 员 、 专 家 和 社区 基础 设施 等 方面 帮助 FOLIO 项 目 建设 FOLIO 社区 

开放 图 书馆 基金 会 将 确保 开源 项 目 所 开发 的 代码 的 可 用 性 , 并 且 作为 这 些 项 目的 “避风 港 ” 不 受 任何 贡献 者 、 用 户 或 关 
联 方 需求 和 目标 的 影响 。 开 放 图 书馆 基金 会 也 将 确保 代码 是 遵循 Apache v2 协议 免费 提供 的 。 欲 了 解 更 多 信息 ， 请 访问 
http:/www.openlibraryfoundation.org。 

(编译 自 : http://librarytechnology.org/news/pr.pl?id=21867) 
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